Projekt ma na celu analizę danych opisujących materiały wykorzystywane przy tworzeniu baterii. Dane pochodzą z bazy danych Material Projects, udostępnianej przez Departament Energii USA.
library(knitr)
library(kableExtra)
library(dplyr)
library(ggplot2)
library(tidyr)
library(corrplot)
library(RColorBrewer)
library(scales)
library(plotly)
library(caret)
library(tidyverse)
library(gganimate)
library(ggpubr) library(vtable)
Powtarzalność rezultatów podczas kolejnych wykonań skryptu można
zagwarantować poprzez ustawienie wartości ziarna (seed) na
konkretną stałą.
set.seed(25)
Dane znajdują się w pliku CSV mp_batteries.csv.
initial <- read.csv("mp_batteries.csv", nrows = 100)
classes <- sapply(initial, class)
df <- read.csv("mp_batteries.csv", colClasses = classes)
| Battery.ID | Battery.Formula | Working.Ion | Formula.Charge | Formula.Discharge | Max.Delta.Volume | Average.Voltage | Gravimetric.Capacity | Volumetric.Capacity | Gravimetric.Energy | Volumetric.Energy | Atomic.Fraction.Charge | Atomic.Fraction.Discharge | Stability.Charge | Stability.Discharge | Steps | Max.Voltage.Step |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| mp-30_Al | Al0-2Cu | Al | Cu | Al2Cu | 3.0433992 | 0.0890331 | 1368.48055 | 5562.7901 | 121.840086 | 495.272533 | 0.0000000 | 0.6666667 | 0.0000000 | 0.0000000 | 1 | 0 |
| mp-1022721_Al | Al1-3Cu | Al | AlCu | Al3Cu | 1.2436528 | -0.0215863 | 1112.93655 | 4418.9798 | -24.024232 | -95.389622 | 0.5000000 | 0.7500000 | 0.0740612 | 0.0962458 | 1 | 0 |
| mp-8637_Al | Al0-5Mo | Al | Mo | Al5Mo | 4.7625743 | 0.1227568 | 1741.50416 | 7175.7017 | 213.781556 | 880.866507 | 0.0000000 | 0.8333333 | 0.4114601 | 0.0452120 | 1 | 0 |
| mp-129_Al | Al0-12Mo | Al | Mo | Al12Mo | 12.7238931 | 0.0431214 | 2298.81076 | 7346.2323 | 99.128013 | 316.780060 | 0.0000000 | 0.9230769 | 0.0000000 | 0.0114456 | 1 | 0 |
| mp-91_Al | Al0-12W | Al | W | Al12W | 12.4945977 | 0.0292342 | 1900.74513 | 7332.7186 | 55.566774 | 214.366205 | 0.0000000 | 0.9230769 | 0.0000000 | 0.0000000 | 1 | 0 |
| mp-1055908_Al | Al0-12Mn | Al | Mn | MnAl12 | 18.2361563 | 0.0397314 | 2547.69280 | 7592.9161 | 101.223298 | 301.676876 | 0.0000000 | 0.9230769 | 0.1454643 | 0.0000000 | 1 | 0 |
| mp-2658_Al | Al0-1Fe | Al | Fe | AlFe | 0.7711539 | 0.4717287 | 970.75702 | 5622.3562 | 457.933974 | 2652.226958 | 0.0000000 | 0.5000000 | 0.7613994 | 0.0000000 | 1 | 0 |
| mp-16722_Al | Al1-10.25V | Al | Al10V | Al41V4 | 0.0027108 | -0.0155827 | 61.37701 | 176.4151 | -0.956421 | -2.749028 | 0.9090909 | 0.9111111 | 0.0118097 | 0.0125861 | 1 | 0 |
Zbiór danych składa się z 4351 wierszy i 17 kolumn. Nie zawiera wartości pustych.
Kolumny odpowiadają następującym danym:
Battery ID: Identyfikator baterii.Battery Formula: Wzór chemiczny materiału baterii.Working Ion: Główny jon, który odpowiada za transport
ładunku w baterii.Formula Charge: Wzór chemiczny materiału baterii w
stanie naładowanym.Formula Discharge: Wzór chemiczny materiału baterii w
stanie rozładowanym.Max Delta Volume: Zmiana objętości w % dla danego kroku
napięcia za pomocą wzoru:
max(charge, discharge)/min(charge, discharge) -1.Average Voltage: Średnie napięcie dla poszczególnego
kroku napięcia.Gravimetric Capacity: Pojemność grawimetryczna, czyli
ilość energii na jednostkę masy (mAh/g).Volumetric Capacity: Pojemność wolumetryczna, czyli
ilość energii na jednostkę objętości (mAh/cm³).Gravimetric Energy: Gęstość energii w odniesieniu do
masy baterii (Wh/kg).Volumetric Energy: Gęstość energii w odniesieniu do
objętości baterii (Wh/L).Atomic Fraction Charge: Udział atomowy składników w
stanie naładowanym.Atomic Fraction Discharge: Udział atomowy składników w
stanie rozładowanym.Stability Charge: Wskaźnik stabilności materiału w
stanie naładowanym.Stability Discharge: Wskaźnik stabilności materiału w
stanie rozładowanym.Steps: Liczba odrębnych kroków napięcia od pełnego
naładowania do rozładowania, oparta na stabilnych stanach
pośrednich.Max Voltage Step: Maksymalna bezwzględna różnica między
sąsiednimi krokami napięcia.Można zauważyć, że większość przedstawionych zbiorów danych ma rozkład zbliżony do normalnego, jednak prawostronnie skośny. Oznacza to, że znaczna część wartości skupia się po lewej stronie od średniej, a ogon rozkładu jest dłuższy po prawej stronie. Oznacza to, że w zbiorze danych występuje kilka wartości wyraźnie większych, które mogą opisywać baterie produkowane według nowatorskich metod lub takie o nietypowym, specyficznym przeznaczeniu.
Wartości nieliczbowych nie da się zaprezentować w postaci histogramu, dlatego dla każdej kolumny wybrano 10 najczęściej występujących wartości i przedstawiono na wykresie słupkowym ich częstotliwość występowania.
Kolumna Battery.ID ma unikalne wartości, co jest zgodne z zastosowaniem tej wartości jako identyfikator.
Kolumny Battery.Formula, Formula.Charge I Formaula.Discharge odnoszą się do wzorów chemicznych baterii w różnych stanach. Wzory te, mimo że nie są unikalne dla poszczególnych baterii, przyjmują bardzo zróżnicowane wartości. Przyczyn takiego zjawiska może być wiele, na przykład: specyficzne przeznaczenie baterii, zróżnicowane badania chemiczne różnych producentów, nowatorskie rozwiązania.
Największa powtarzalność wartości występuje w kolumnie Working.Ion, reprezentującej jon transportujący ładunek w baterii. Zdecydowanie najczęściej występującym jonem jest lit - pojawia się 2440 razy, kiedy drugi co do częstotliwości występowania wapń pojawia się 435 razy.
Żeby odkryć, jaki wpływ mają na siebie poszczególne kolumny, warto zbadać korelacje między nimi. Poniżej zaprezentowano macierz korelacji. Wartości przedstawiają współczynnik korelacji Pearosna między kolumnami.
Jak można zauważyć, duży wpływ na siebie mają